医疗大数据分析的“可视化问题” | 您所在的位置:网站首页 › tableau 编程语言 › 医疗大数据分析的“可视化问题” |
本文转载自珍立拍 图形一直以来就是统计分析的重要组成部分。它既可被用以辅助数据分析的前期探索(比如发现异常记录,观察变量间的相互关系等),也可以用来展示数据分析的结果。本篇通过若干实例探讨了如何有效地展示医疗大数据的数据分析结果,即医疗大数据的视觉化问题,并讨论了未来数据可视化发展的可能方向。 俗话说:“一图抵千言”(A picture is worth a thousand words)。 许多复杂的结果往往用一张图就能十分直观地展示出来,让人一看就明白。比如图一显示了2005至2010年全球非自然死亡的比例分布图。所有的疾病被分为三大类:传染病及先天不足,受伤,以及非传染性疾病,分别用黄,绿,粉红三色代表。它们的体积反映了各类疾病在所有非自然死亡中所占的比重。由图可见,传染病及先天不足(黄色)所占比重几乎等同于非传染性疾病(粉红色),而传染病这一块完全可以通过公共卫生方面的努力加以缩小。图中每一大块颜色中同色系的小块代表了具体的疾病。同样的,体积反映所占的比重,而颜色深浅则体现了05年至10年平均年度变化的百分比,深色表示连年增长,而浅色表示连年下降。增长及下降的平均年度变化百分比没有大于3%的。小小一张图包含了许多信息,却又一目了然,实实在在地诠释了数据统计上的“一图抵千言”。 图一: 再以2015年一月热议的《解构春雨医生》的报告为例,有些数字表格如果改作图示,会更加直观,更利于读者快速获取其中蕴含的信息。 表一: 这张表格蕴含了很多信息,包括春雨医生各种类收入,各科室收入,及各科室在各种类收入中所占的构成比例,一眼看去,满目数字,很难快速地获取综合信息。如果使用图示,则可以将表格的内容简单显示如图二(以一万人民币为基准单位): 图二: 以上两例说明了图示对展示数据的重要性和有效性。随着大数据时代的到来,数据视觉化变得尤为关键,但也同时面临更多的挑战。首先,原始数据往往含有海量的信息。这些信息经过数据清理(Data cleaning),整合 (Binning),归纳 (Summarizing)之后依然可能十分庞杂,很难用一张或若干张图来显示大数据所蕴藏的信息。因此大数据的视觉化不仅需要专业的知识和经验,更需要有十足的想像力和美学概念。其次,大数据不单只是数据量本身的庞大,还兼有更新快的特性。每时每刻都有大量的各种数据被制造并收集起来。如何即时分析这些动态数据并配以相应的动态可视化图形面临着很大挑战。 工欲善其事,必先利其器。我们迫切需要强大而不失灵活机动的,具有强互动性的数据视觉化软件。事实上,美好的前景和客户实际的需求也已经催生出了许多大数据可视化软件。下面我们简要介绍一下,除了较传统的Excel,R,STATA之类,还有很多相对比较新的软件,如Tableau,ZingChart,FusionCharts, Google Charts,D3.js,jqPlot,IBM Many Eyes等等,不一而足。新的数据视觉化软件也正源源不断地涌现。这些软件各有特色,各有侧重,但也多有重合。比如几乎所有的软件都提供了常用的统计图示,如条形图,扇形图,折线图,直方图,散点图,基本地图等等。可以说,现在大数据可视化软件正处于群雄并起,群星璀璨的时期,也没有哪一款软件真正全面地涵盖了多样的大数据可视化的需求,即:囊括了几乎所有的图形需求并不断更新。 结合实际工作,我们有必要从现在起建立一个大数据可视化图示库,分科分类型搜集每一种图示并辅以实例。可以预见这个数据库必然会在经历一个最初的急剧膨胀期后缓慢扩大,最终慢慢稳定下来,而且沉淀的东西会非常有价值。美国人口调查局在此提供了一个很好的示范,它提供了各式各样和人口统计相关的可视化图形,如图三所示。 图三: 图四: 图五: 我们期待,众多可视化软件经过沉淀积累,去芜存菁的过程,伴随一个整合编程语言平台的出现。 |
CopyRight 2018-2019 实验室设备网 版权所有 |